时政
财经
科技
虚拟货币
其他
登录
#Kimi Linear
关注
張小珺 Xiaojùn
1个月前
这篇很前沿,也很hardcore——关于算法和架构创新。 由于数据、算力、算法三驾马车,数据难度增大,中国算力相对有限,中国的算法走在了世界前沿。 近几年架构最大突破是DeepSeek的MoE,它让MoE成了全球共识;而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。 本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起,嘉宾分析点评了这些不同技术bet;也带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案(这里烧脑又精彩🤯)。 本集是我们的往期嘉宾松琳(Sonta)的返场。松琳在MIT的研究方向是线性注意力,参与了Kimi Linear和Qwen3-Next的工作,是Kimi Linear论文的作者之一。
#算法
#架构创新
#DeepSeek MoE
#attention
#Kimi Linear
分享
评论 0
0
sitin
1个月前
月之暗面把 Kimi Linear 开源了! 这东西是专门用来处理超长文本的。 简单说几个数据: KV 缓存降了 75%,处理百万字的文本时,解码速度能快 6 倍多。 技术上用了个 3:1 的混合设计, 就是 3 个线性注意力层配 1 个全注意力层。 核心模块叫 KDA,能让模型自己判断该记住什么、该忘掉什么。 测试下来,在长文本生成、代码理解、数学推理这些场景, 表现确实比传统的全注意力模型好一些。 特别是做强化学习训练的时候,准确率涨得挺快。 模型有 480 亿参数,但每次跑的时候只激活 30 亿, 所以资源消耗没想象中那么夸张。 如果你要处理特别长的上下文, 这个架构应该能帮上忙。 已经在 HuggingFace 上了,感兴趣可以看看。
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 27 条信息
#Kimi Linear
#开源
#超长文本处理
#线性注意力
#月之暗面
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞